python爬虫实战 |
您所在的位置:网站首页 › 本周国内重大新闻十条 今日头条视频 › python爬虫实战 |
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码 第三方库: requests >>> pip install requests第三方模块安装: win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源) 开发环境:python 3.8 pycharm 专业版 案例步骤:一. 思路分析 找到数据来源地址 文章标题 文章发布时间 文章内容 在列表页当中获取详情页的链接 访问详情页链接 拿到 需要的数据 二. 代码实现 访问列表页链接本案例视频教程/源码可+V:qian97378,还可获取: python安装包 安装教程视频 pycharm 社区版 专业版 及 激活码免费 代码展示 ''' python资料获取看这里噢!! 小编 V:qian97378,即可获取: 文章源码/教程/资料/解答等福利,还有不错的视频学习教程和PDF电子书! ''' import requests from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() headers = { 'Referer': 'https://***屏蔽,不然发不出***/?wid=1697699263232', 'cookie': 'ttcid=92ece02000f2467c8199a042d1a7783d39; csrftoken=ae047567561c48e5dd9e2fc0b22ea545; tt_anti_token=04f1H0rq1BU-9b92ba89f64e967f88b554f9888051221bf2afb87f2d4944350b78b2a42969f6; tt_webid=7194689479734134327; local_city_cache=%E9%95%BF%E6%B2%99; _ga=GA1.1.1774896154.1697699265; s_v_web_id=verify_lnwub4sw_omFJ90tA_qOum_4AzC_8f7f_zAvYWn8bjFbi; _S_WIN_WH=1611_817; _S_DPR=1; _S_IPAD=0; msToken=tlOZw3Cf8-FurmSOujuTolA64e0t8pvjXe0ZvtWz8xZnlufMZEA3jAuXwmeVMujIh2nnkoNEDndXJc83JtWJctnhGizVqudQLY9hhrJd; _ga_QEHZPBE5HH=GS1.1.1697699264.1.1.1697700966.0.0.0; tt_scid=rI2Aqe4745U2cQcnyiJFQquxaMuGqBEeR849tR2hG41-cApqsmw2F3uBx7Fjtl0f72db; ttwid=1%7CiWx9zpr2eLSL5pxwfW7PdpTasAnL2Tszm5jFlS0A_ac%7C1697700966%7C075ec2a1c6ec5be355f2cdf0f5bbb1d33c2a2ed36743aebea5dc2609b1e73a79', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36' } url = 'https://***屏蔽,不然发不出***/api/pc/list/feed?channel_id=0&max_behot_time=1697699614&offset=0&category=pc_profile_recommend&aid=24&app_name=toutiao_web&_signature=_02B4Z6wo00101.CXQxAAAIDCk52Derk.V6Pws0eAAJkeQEsbY9XZOs-9WUI.4KOjzx5RWdVK7Uc6XjjHHZwZUf3MSEY9lGtY1O7hGUt4Ji3bXrDCOlnlmIYTKDhUlOIpPF0OjwF4K22oKIrMe2' # 1. 访问列表页链接 response = requests.get(url=url, headers=headers) # 2. 提取数据 json_data = response.json() # 拿到所有的数据 # 将这个数据里面的 详情页链接 标题 拿到 data_list = json_data['data'] for data in data_list: detail_url = data['url'] print(detail_url) title = data['title'] driver.get(detail_url) driver.implicitly_wait(2) create_time = driver.find_element(By.XPATH, '//div[@class="article-meta"]').text content = driver.find_element(By.XPATH, '//article').get_attribute("outerHTML") print(title, create_time, content) 尾语好了,今天的分享就差不多到这里了! 对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง 喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!! 最后,宣传一下呀~👇👇👇 更多源码、资料、素材、解答、交流 皆点击下方名片获取呀👇👇👇 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |